9. 1要因実験の分析
https://gyazo.com/4f7dfd91756d579cff6ea820ee6ff329
心理学的知覚時間(音読条件)
「音読しながら私はどれほど正確に時間の長さを評価できるだろう」
「夏目漱石 吾輩は猫である」を冒頭から順に音読する
心理学的知覚時間(運動条件)
「片足立ちをしながら私はどれほど正確に時間の長さを評価できるだろう」
奇数回目は右足、偶数回目は左足で立つ
本章では実験計画によって収集されたデータの分析方法について論じる
研究目的に応じて、どのような実験を行えばよいかを研究する分野
9.1. 要因と水準
「対照条件」、「聴音条件」に加えて、「音読条件」と「運動条件」を同時に分析する
測定値に影響を及ぼすと考えられる多くの原因のうち、その実験で取り上げ、調べられる質的な変数
ここでは条件の違いの知覚時間への影響を調べているので、要因は「条件」
1つだけの要因に着目した実験
要因を$ Aで表現する
要因のとるさまざまな状態
水準の数
この実験の要因$ Aの水準数$ aと表記する
ここでは$ a = 4
https://gyazo.com/692005ebdcba2af4a0a83d6498f4898f
9.1.1. 1要因計画
$ y_{ij} = \mu_j +e, \quad e \sim N(0, \sigma_e) \qquad (9.1)
左辺の$ y_{ij}は要因$ Aの$ j番目の水準における$ i番目の測定値
$ j = 1: 対照条件
$ j = 2: 聴音条件
$ j = 3: 音読条件
$ j = 4: 運動条件
$ iは$ 1から$ 20までの測定
「独立した」とは$ y_{ij}が水準内・水準間で、互いに無関係に測定されているということ
右辺第1項の$ \mu_jは水準$ jの母平均
$ eは平均$ 0, 誤差標準偏差$ \sigma_eの正規分布に従うことが仮定される $ \sigma_eに添え字$ jがついていない
したがって、2群の差のモデルでいうところのEQUであり、すべての群の標準偏差を共通させている
(9.1)式により、測定値の確率分布は、正規分布の密度関数を用いて、以下のように表現される
$ f(y_{ij}|\mu_j, \sigma_e) \qquad (9.2)
互いに独立に測定されていることを仮定し、水準内の測定値$ \bm y_j = (y_{1j}, \cdots, y_{ij}, \cdots, y_{n_jj})の同時確率分布を以下のように表現する
$ f(\bm y_j|\mu_j, \sigma_e) = f(y_{1j}|\mu_j, \sigma_e) \times f(y_{2j}|\mu_j, \sigma_e) \times \cdots \times f(y_{n_jj}|\mu_j, \sigma_e) \qquad (9.3)
ただし$ n_jは水準$ jにおける観測値の数
水準ごとにデータ数は異なっていても構わない
データ全体を$ \bm y = (\bm y_1, \cdots, \bm y_j, \cdots, \bm y_a)と表記し、水準ごとの平均をまとめて$ \bm \mu = (\mu_1, \cdots, \mu_j, \cdots, \mu_a)と表記すると、(2.12)式に相当する尤度は以下になる
$ f(\bm y|\bm\theta) = f(\bm y|\bm\mu, \sigma_e) = f(\bm y_1|\mu_1, \sigma_e) \times \cdots \times f(\bm y_j|\mu_j, \sigma_e) \times \cdots \times f(\bm y_a|\mu_a, \sigma_e) \qquad (9.4)
ここで$ \bm\theta = (\bm\mu, \sigma_e)は母数の集まり
$ \mu_jと$ \sigma_eの事前分布として、ここでは次のように仮定した
$ \mu_j \sim U(0, 100), \quad \sigma_e \sim U(0, 50) \qquad (9.5)
時間という測定値の特性から負の値は定義されないので下限は$ 0とした
通常観測し得ない程の大きな値ということで、上限は$ 100とした
(2.14)式に相当する同時事前分布
$ f(\bm\theta) = f(\mu_1) \times \cdots \times f(\mu_j) \times \cdots \times f(\mu_a) \times f(\sigma_e) \qquad (9.6)
(2.15)式に相当する事後分布
$ f(\bm \theta|\bm y) \propto f(\bm y|\bm\theta)f(\bm\theta) \qquad (9.7)
この式の右辺とMCMC法を組み合わせることにより、母数の事後分布・生成量の事後分布・予測分布に従う乱数を生成することが可能となる
$ 21000個の乱数を5本発生させ、バーンイン期間を$ 1000とし、$ T=100000の乱数によって母数の事後分布を近似した。
table: 表9-2 母数の推定結果
EAP post.sd 2.5% 5% 50% 95% 97.5%
対照μ₁ 31.04 0.55 29.96 30.14 31.04 31.94 32.12
聴音μ₂ 32.76 0.55 31.69 31.87 32.76 33.66 33.83
音読μ₃ 33.07 0.55 31.99 32.17 33.07 33.97 34.15
運動μ₄ 29.11 0.55 28.03 28.21 29.11 30.00 30.18
σₑ 2.43 0.20 2.08 2.12 2.41 2.78 2.86
EAPがもっとも大きいのは「音読」であり、$ 33.07(0.55)[31.99, 34.15]
EAPがもっとも小さいのは「運動」であり、$ 29.11(0.55)[28.03, 30.18]
9.1.2. 水準の平均と水準の効果
母数の関数として導かれる生成量
$ \mu = \frac{1}{a}(\mu_1 + \cdots + \mu_a) \qquad (9.8)
特段の理由がない場合は各水準の平均の単純な平均として生成する
性別・民族・年齢構成・職業分類など、構成比率がわかっている場合は、それに比例した(和が$ 1の)重みを用いた平均を求めてもよい
たとえば「産業」という要因に「第1次」「第2次」「第3次」の3水準があり、その地域の人口比率が$ 0.4, 0.3, 0.3なら$ \mu = 0.4\times\mu_{第1次} + 0.3 \times \mu_{第2次} + 0.3 \times \mu_{第3次}とする
ベイズ統計を使えば、アンバランスデータに対しても重みを$ 1/aに設定できる
有意性検定の帰無仮説では、当該実験のデータ数$ n_jによって母数を定義しなくてはならない
これは矛盾したモデル構成である
$ a_j = \mu_j - \mu \qquad (9.9)
解釈の中心となる重要な生成量
これは全平均からの偏差であり以下の性質がある
$ a_1 + \cdots + a_a = \mu_1 + \cdots + \mu_a - a\mu = 0 \qquad (9.10)
生成量を求める
$ \mu^{(t)} = \frac{1}{a}(\mu_1^{(t)} + \cdots + \mu_a^{(t)}), \quad a_j^{(t)} = \mu_j^{(t)} - \mu^{(t)} \qquad (9.11)
生成量の推定結果
table: 表9-3 全平均と水準の効果の推定結果
EAP post.sd 2.5% 5% 50% 95% 97.5%
μ 31.50 0.27 30.95 31.05 31.50 31.95 32.04
対照a₁ -0.45 0.47 -1.39 -1.23 -0.45 0.33 0.48
聴音a₂ 1.26 0.47 0.34 0.49 1.26 2.04 2.19
音読a₃ 1.58 0.47 0.65 0.80 1.58 2.36 2.51
運動a₄ -2.39 0.47 -3.31 -3.16 -2.39 -1.62 -1.46
水準の効果のpost.sd($ 0.47)が、表9-2の水準内の平均のpost.sd($ 0.55)より小さいのは、(9.10)式が結果として制約になっているため
水準の効果の事後分布の箱ひげ図
https://gyazo.com/ea60a850ea48a5e96db27214b8d61d7e
「聴音」と「音読」は正の、「運動」は負の効果の存在を確信できそう
9.2. 水準と要因の考察
独立した1要因のモデルでは、たとえば以下の分析ができる
1. 水準の効果の生む(どの水準が大きいのか小さいのか)
2. 要因の効果の大きさ(効果はどの程度か)
3. 水準間の比較(どの対に差があるのか)
4. 連言命題が正しい確率
5. 特に興味のある2水準間の比較
ただし、4以降は余力がある場合のみでよく、行わなくてもよい
9.2.1. 水準の効果の評価
ドメイン知識に照らして基準$ cより甚だしいと確信が持てる水準はどれだろうか
あるいは基準$ cより甚だしいと確信が持てる水準はないのだろうか
たとえば「研究仮説$ U_{a_j>c}: $ a_jは$ cはより大きい」が正しい確率は、以下の生成量のEAPで評価する
$ u_{a_j>c}^{(t)} = \begin{cases} 1 & a_j^{(t)} > c \\ 0 & それ以外 \end{cases} \qquad (9.12)
ここでは入門的分析ということで$ c=0として計算した確率を表9-4に示す
table: 表9-4 水準の効果が0より大きい(小さい)確率
条件 対照 聴音 音読 運動
U_a_j>0 0.169 0.996 1.000 0.000
U_a_j<0 0.831 0.004 0.000 1.000
「聴音」の効果$ a_2が$ 0より大きい確率は$ 99.6\%である
「音読」の効果$ a_3が$ 0より大きい確率は(有効数字3桁で)$ 100\%である
「運動」の効果$ a_4が$ 0より小さい確率も(有効数字3桁で)$ 100\%である
1つ以上の効果の絶対値に関して$ 0以上である効果が確信できた
データ数の増加に伴い、水準の効果のpost.sdに平均的に小さくなる
したがって$ c=0の判定は、bigデータでは「効果あり」の判定となることには留意しなければならない
たとえば$ a_j > 2あるいは$ a_j < -2として「『条件』による効果の絶対値は少なくとも2秒以上はある」という研究仮説ならば、データの増加に伴い、否定か肯定か、はっきり決着する
その代わりに$ c=0以外の基準を定めるためには、適応分野のドメイン知識が必要になる
9.2.2. 要因の効果の評価
一つひとつの水準の効果ではなく、4つの水準をまとめた「条件」という要因$ Aの効果の大きさはどれ程であろうか
水準の効果$ a_jと誤差変数$ eが互いに独立であるとすると、和の分散は分散の和となるから
$ \sigma_y^2 = \sigma_a^2 + \sigma_e^2 \qquad (9.13)
のように測定値の分散は、要因の分散$ \sigma_a^2と誤差の分散$ \sigma_e^2の単純な和となる
ここで
$ \sigma_a^2 = \frac{1}{a}\{(\mu_1 - \mu)^2 + \cdots + (\mu_a - \mu)^2\} = \frac{1}{a}(a_1^2 + \cdots + a_a^2) \qquad (9.14)
要因の分散は、水準ごとのデータ数が異なっても影響されない
$ \eta^2 = \frac{\sigma_a^2}{\sigma_y^2} = \frac{\sigma_a^2}{\sigma_a^2 + \sigma_e^2} \qquad (9.15)
(9.13)式から明らかなように、説明率は測定値の分散に占める要因の分散の比率
説明率は$ 0から$ 1までの値をとる
説明率が$ 0のときは、要因が観測変数をまったく説明していない状態を示し、説明率が$ 1のときは、要因が観測変数を完全に説明している状態を示している
要因の効果の大きさを解釈するために利用できるもう1つの指標としては効果量がある
$ \delta = \frac{\sigma_a}{\sigma_e} \qquad (9.16)
水準間の標準偏差が、水準内の標準偏差の何倍に相当するかで要因の効果の大きさを表現する
説明率(9.15)式は、測定値の分散を利用した要因の効果の大きさの指標
それに対して、効果量(9.16)式は、要因の影響を受けていない水準内の平均的散らばりを利用した要因の効果の大きさの指標
効果の大きさに関する生成量を計算する
$ \begin{aligned} \sigma_a^{2(t)} & = \frac{1}{a}\{(\mu_1^{(t)} - \mu^{(t)})^2 + \cdots + (\mu_a^{(t)} - \mu^{(t)})^2\}, \\ \eta^{2(t)} & = \frac{\sigma_a^{2(t)}}{\sigma_a^{2(t)} + \sigma_e^{(2(t)}}, \quad \delta^{(t)} = \frac{\sigma_a^{(t)}}{\sigma_e^{(t)}} \end{aligned}
table: 表9-5 効果の大きさに関する生成量の推定結果
EAP post.sd 2.5% 5% 50% 95% 97.5%
σₐ 1.628 0.268 1.102 1.188 1.628 2.071 2.158
η² 0.311 0.076 0.160 0.184 0.313 0.434 0.456
δ 0.675 0.122 0.437 0.476 0.674 0.876 0.915
https://gyazo.com/245cfae445437cbd8c74679220da71ac
https://gyazo.com/e997e723df6c92fa34a714194e426af8
要因Aの効果の標準偏差は$ 1.628(0.268)[1.102, 2.158] であり、およそ$ 1.6秒である
説明率は$ 0.311(0.076)[0.160, 0.456] であり、$ 31.1\%である
効果量は$ 0.675(0.122)[0.437, 0.915] であり、$ 67.5\%である
9.3. 水準間の考察
どの水準とどの水準に間に差があるのだろうか
水準の対の比較をするためには「研究仮説$ U_{\mu_j -\mu_{j'}>c}: $ \mu_jと$ \mu_{j'}の差は$ cより大きい」が正しい確率$ p(\mu_j - \mu_{j'} > c)は以下の生成量のEAPで評価する
$ u_{\mu_j -\mu_j'>c}^{(t)} = \begin{cases} 1 & \mu_j^{(t)} - \mu_{j'}^{(t)} > c \\ 0 & それ以外の場合 \end{cases} \qquad (9.17)
ここでは入門的分析ということで$ c=0として計算した確率を表9-6に示す
この場合は上式は$ u_{\mu_j > \mu_{j'}}^{(t)} となる
table: 表9-6 行jの水準が列j'の水準より大きい確率
条件 対照(μ₁) 聴音(μ₂) 音読(μ₃) 運動(μ₄)
対照(μ₁) 0.000 0.013 0.004 0.994
聴音(μ₂) 0.987 0.000 0.341 1.000
音読(μ₃) 0.996 0.659 0.000 1.000
運動(μ₄) 0.006 0.000 0.000 0.000
例に95%以上を基準として判断すると、別々に判定できる命題は「$ \mu_3 > \mu_1」「$ \mu_2 > \mu_1」「$ \mu_3 > \mu_4」「$ \mu_2 > \mu_4」「$ \mu_1 > \mu_4」の5つ
「別々に」と述べたのは、同時に成り立つ確率とは異なるから
9.3.1. 連言命題が正しい確率
たとえば平均のEAPの大きさの順の研究仮説「$ \mu_3 > \mu_2 > \mu_1 > \mu_4」が正しい確率を考える
この研究仮説が正しい確率は以下の生成量のEAPで評価される
$ u_{\mu_3 > \mu_2}^{(t)} \times u_{\mu_2>\mu_1}^{(t)} \times u_{\mu_1>\mu_4}^{(t)} \qquad (9.18)
$ 0.642となった
条件を緩め「聴音」「音読」に上下関係をつけずに研究仮説「$ (\mu_3, \mu_2) > \mu_1 > \mu_4」が正しい確率を計算する
これは以下の生成量のEAPで評価される
$ u_{\mu_3 > \mu_1}^{(t)} \times u_{\mu_2 > \mu_1}^{(t)} \times u_{\mu_1 > \mu_4}^{(t)} \qquad (9.19)
$ 0.977となった
「運動」だけが他の条件より小さいという研究仮説「$ (\mu_3, \mu_2, \mu_1) > \mu_4」がた正しい確率を計算する
これは以下の生成量のEAPで評価される
$ u_{\mu_3 > \mu_4}^{(t)} \times u_{\mu_2 > \mu_4}^{(t)} \times u_{\mu_1 > \mu_4}^{(t)} \qquad (9.20)
$ 0.994となった
9.3.2. 特に興味のある2水準間の比較
分析者が興味ある特定な2つの水準間の差を詳しく分析することも可能
表9-2より「音読」と「聴音」の差が一番小さく、「音読」と「運動」の差が一番大きかった
この2つの水準の差を詳しく推測してみる
独立した2群の分析の中で導入された差の分析を選んで実行する
平均の大きい水準を第1群に、平均の小さい水準を第2群に指定すると解釈しやすい
ただし当該の水準のデータを使って再分析をしてはいけない
ベイズ統計学はデータの2度使いをしないから
前節までに求めた$ \mu_j^{(t)}と$ \mu_{j'}^{(t)}と$ \sigma_e^{(t)}とを利用する
$ \sigma_e^{(t)}は当該水準ばかりではなく全データを使って求めらた乱数である
ここでは平均の差、効果量、非重複度、優越率、閾上率を選んで例示する
「音読」と「聴音」の差の分析結果を表9-7西目市、「音読」と「運動」の差の分析結果を表9-8に示す
table: 表9-7 音読と聴音に関する差の推定結果
EAP post.sd 2.5% 5% 50% 95% 97.5%
μ₃ - μ₂ 0.314 0.771 -1.199 -0.954 0.314 1.574 1.821
δ 0.130 0.316 -0.488 -0.390 0.130 0.651 0.747
U₃ 0.549 0.120 0.313 0.348 0.552 0.742 0.772
π_d 0.536 0.087 0.365 0.391 0.537 0.677 0.701
π_0.5 0.479 0.087 0.312 0.337 0.478 0.623 0.649
table: 表9-8 音読と運動に関する差の推定結果
EAP post.sd 2.5% 5% 50% 95% 97.5%
μ₃ - μ₄ 3.968 0.772 2.457 2.695 3.971 5.238 5.489
δ 1.645 0.345 0.974 1.078 1.644 2.214 2.320
U₃ 0.940 0.041 0.835 0.860 0.950 0.987 0.990
π_d 0.871 0.051 0.755 0.777 0.877 0.941 0.950
π_2.0 0.713 0.076 0.552 0.579 0.718 0.830 0.847
放送授業
分散分析では、アンバランスか否かで計算方法が変わる
計算の方法は理解ではなく、しばしば暗記させられる
ベイズ的アプローチでは、アンバランスか否かで計算手順は変わらない
アンバランスという状態は、実験計画にとって決して望ましい状態ではなく、できるだけ避けるべきである
分散分析の要因の効果がデータ数で定義されていることは理論的矛盾である